进化树专题(三) | 比对及用Gblocks处理比对序列
多序列比对是进化分析的基础,有时用来区分一组序列之间的差异,但其主要用于描述序列之间的相似性关系,常用的软件有 Muscle / MAFFT / ClustalW / T-coffee。
2004年Robert C. Edgar发表的文章对这几个软件进行了评估,在准确性和速度方面,Muscle的综合性能是最高的。
01
MUSCLE序列比对
Muscle及其他比对软件都可以接受DNA和Protein序列,输出格式默认是FASTA,也可以根据需要指定其他输出类型 ClustalW / GCG MSF / Phylip format。
命令行运行示例:
可以直接用Muscle 建树,树的格式是Newick format,但是能选用的算法有限,推荐还是使用PhyML v3.0 或 MrBayes。
如果需要进行自然选择分析,如利用 CodeML (PAML) 进行选择压力分析,就需要进行Codons方式比对,依然推荐 Muscle:
选择物种对应的密码子表,进行Codons方式的比对后,可以翻译成对应的氨基酸而不会产生内部终止子。需要注意的是输入的CDS必须完整且不含末端的终止密码子。
参考文献:
02
Gblocks
Gblocks(Version 0.91b,http://molevol.cmima.csic.es/castresana/Gblocks_server.html)用于从多序列比对结果中提取保守位点,以利于下一步的进化分析。尤其是差异比较大的序列,比对后Gaps区特别多,更需要用Gblocks做进一步处理。
Gbloks 有两种使用方式,第一种是交互式的方式(按提示输入文件改变参数),第二种是命令行方式(在命令行中输入参数)。
-t= Default:p
设置序列的类型,可选的值是 p / d / c 分别代表 protein / DNA / Codons,如果前一步的比对选择的是Codons方式,则该参数设置为-t=c;
-b1= Default: 50% of the number of sequences + 1
设定保守性位点必须有 >= 该值的序列数。该参数后接一个 integer 数,默认为序列条数的 50% + 1;
-b2= Default: 85% of the number of sequences
确定保守位点的侧翼位点时,其位点必须有 >= 该值的序列数;
-b3= Default: 8
最大连续非保守位点的长度;
-b4= Default: 10
保守位点区块的最小长度。该值必须 >=2;
-b5= Default: n
设置允许含有 Gap 位点。可选的值有 n / h / a 分别代表 None / With Half / All;
-b6= Default: y (Use Similarity Matrices)
默认使用相似性矩阵,仅适用于蛋白比对序列。
-e= default: -gb
设置输出结果的后缀。
参考文献:
Talavera, G., and Castresana, J. (2007). Improvement of phylogenies after removing divergent and ambiguously aligned blocks from protein sequence alignments. Systematic Biology 56, 564-577.